년 7월 AI 및 로봇 연구 동향
1. 서론
2018년 7월은 인공지능(AI) 및 로봇 공학 분야의 연구가 양적 팽창을 넘어 질적 성숙으로 나아가는 중요한 변곡점을 기록한 시기였다. 이 시기는 단순히 새로운 알고리즘을 제안하는 것을 넘어, 기존 기술의 신뢰성을 근본적으로 재검토하고(견고성, 공정성), 새로운 패러다임(Flow 기반 생성 모델)을 제시하며, 복잡한 환경에서의 지능(다중 에이전트 협력)을 구현하는 데 초점을 맞추었다. 특히 스웨덴 스톡홀름에서 개최된 Federated AI Meeting (FAIM)은 IJCAI-ECAI, ICML 등 세계 최고 수준의 AI 학회를 한자리에 모아 전례 없는 지식 교류의 장을 마련했으며 1, 미국 피츠버그에서 열린 Robotics: Science and Systems (RSS)는 AI 기술을 물리적 세계에 구현하는 데 있어 핵심적인 진전을 공유했다.2 본 보고서는 이 시기에 발표된 주요 연구들을 ▲신뢰할 수 있는 AI, ▲생성 모델, ▲다중 에이전트 강화학습, ▲물리 기반 로봇 지능이라는 네 가지 핵심 축을 중심으로 심층 분석한다. 이를 통해 2018년 7월이 AI 연구 지형도에 남긴 유산을 조명하고, 이후 기술 발전의 방향성을 전망하는 것을 목표로 한다.
2. 2018년 여름, AI 학계의 지형도: ICML, IJCAI, RSS
2018년 7월 AI 및 로봇 공학 분야의 학술적 동향을 주도한 핵심 컨퍼런스들의 개요와 중요성을 분석한다.
2.1 통합 AI의 장: Federated AI Meeting (FAIM) 2018
2018년 7월 9일부터 19일까지 스웨덴 스톡홀름 Stockholmsmässan에서 개최된 FAIM은 AI 분야의 분절된 연구를 통합하려는 중요한 시도였다.1 이 행사는 제27회 International Joint Conference on Artificial Intelligence (IJCAI)와 제23회 European Conference on Artificial Intelligence (ECAI)의 공동 개최를 중심으로, International Conference on Machine Learning (ICML), International Conference on Autonomous Agents and Multiagent Systems (AAMAS), International Conference on Case-Based Reasoning (ICCBR), Symposium on Combinatorial Search (SoCS) 등 주요 학회를 한자리에 모았다.1 이러한 통합적 구성은 평소에는 각자의 영역에서 활동하던 연구자들이 서로의 최신 성과를 실시간으로 접하고 아이디어를 교환하는 전례 없는 ’고밀도 상호작용’의 장을 형성했다. 이는 특정 연구 주제에 대한 논의를 가속화하고, 분야 간 융합 연구의 가능성을 높이는 촉매 역할을 수행했다.
IJCAI는 AI 분야에서 가장 권위 있는 상들을 수여하며, 2018년에는 다음과 같은 연구자들이 그 공로를 인정받았다.4
-
연구 우수성상 (Award for Research Excellence): 캘리포니아 대학교 버클리의 Jitendra Malik 교수가 컴퓨터 비전 분야의 근본적인 발전에 기여한 공로로 수상했다. 이 상은 전 생애에 걸쳐 일관되게 높은 수준의 연구를 수행한 과학자에게 수여된다.
-
컴퓨터와 사상 상 (Computers and Thought Award): 스탠포드 대학교의 Stefano Ermon 교수가 확률적 추론, 기계 학습, 의사 결정 분야의 기초 연구와 사회적으로 영향력 있는 응용 분야에 기여한 공로로 수상했다. 이 상은 AI 분야의 뛰어난 젊은 과학자에게 수여된다.
-
존 매카시 상 (John McCarthy Award): 서던캘리포니아 대학교의 Milind Tambe 교수가 사회적 선(social good)을 위한 AI 및 다중 에이전트 시스템의 실용적 응용 연구 개발에 기여한 공로로 수상했다. 이 상은 박사 학위 취득 후 15년에서 25년 사이의 중견 연구자에게 수여된다.
FAIM의 일부로 개최된 ICML 2018은 머신러닝의 이론적, 방법론적 발전을 이끄는 핵심 학회로서, 특히 AI의 신뢰성(Trustworthiness)과 관련된 주제가 최우수 논문으로 선정되는 등 기술의 사회적 책임과 견고성에 대한 학계의 깊은 고민을 드러냈다.7
2.2 물리 세계와의 조우: Robotics: Science and Systems (RSS) 2018
2018년 6월 26일부터 30일까지 미국 피츠버그 카네기 멜론 대학에서 개최된 RSS 2018은 로봇 공학 분야의 모든 연구자를 한자리에 모으는 단일 트랙(single-track) 컨퍼런스로, 깊이 있는 논의를 촉진했다.2 이 해에는 223편의 논문이 제출되어 그중 71편이 채택, 31.8%의 경쟁률 높은 채택률을 기록하며 연구의 질적 수준을 증명했다.8
주요 연구 동향으로는 딥러닝 기술을 로봇 공학 문제에 적용하는 흐름이 지속되었다. 특히 물체 조작(grasping) 분야에서는 단순히 사전에 계획된 경로를 따르는 개방 루프(open loop) 방식을 넘어, 시각 센서 등을 통해 환경 변화에 실시간으로 반응하며 파지 전략을 수정하는 폐쇄 루프(closed loop) 방식에 대한 연구가 심화되었다. 더 나아가, 단순히 물체를 잡는 것을 넘어, 잡은 도구를 특정 목적을 위해 사용하는(grasping for the purpose of using) 고차원적 조작에 대한 연구가 확장되며 로봇 지능의 실용적 가능성을 한 단계 끌어올렸다.3
2.3 Table 1: 2018년 7월 주요 학회 최우수 논문상 요약
이 표는 2018년 7월 AI 및 로봇 공학 커뮤니티에서 가장 중요하게 평가받은 연구 성과를 한눈에 파악할 수 있도록 제공한다. 각 학회의 최우수 논문은 해당 분야의 연구 방향성과 핵심 과제를 상징적으로 보여주며, 본 보고서의 후속 장에서 진행될 심층 분석의 길잡이 역할을 한다.
| 학회 (Conference) | 논문 제목 (Paper Title) | 저자 (Authors) |
|---|---|---|
| ICML 2018 | Obfuscated Gradients Give a False Sense of Security: Circumventing Defenses to Adversarial Examples | Anish Athalye, Nicholas Carlini, David Wagner |
| ICML 2018 | Delayed Impact of Fair Machine Learning | Lydia Liu, Sarah Dean, Esther Rolf, Max Simchowitz, Moritz Hardt |
| ICML 2018 | The Mechanics of n-Player Differentiable Games | David Balduzzi, Sebastien Racaniere, James Martens, Jakob Foerster, Karl Tuyls, Thore Graepel |
| RSS 2018 | Differentiable Physics and Stable Modes for Tool-Use and Manipulation Planning | Marc Toussaint, Kelsey R. Allen, Kevin A. Smith, Josh Tenenbaum |
| RSS 2018 | Predicting Human Trust in Robot Capabilities across Tasks | Harold Soh, Ya-Ting Yeh, Feng-Ji Fuh, Chien-Ting Chen, Min-Chun Hu, Matthew T. Mason |
| RSS 2018 | Analytical Derivatives of Rigid Body Dynamics Algorithms | Justin Carpentier, Nicolas Mansard |
3. 신뢰할 수 있는 AI를 향한 핵심 과제: 공정성과 견고성
ICML 2018 최우수 논문으로 선정된 두 연구는 AI 시스템의 ’의도치 않은 결과’라는 공통된 주제를 파고들었다는 점에서 주목할 만하다. 하나는 보안의 허점을, 다른 하나는 사회적 영향의 역설을 드러내며, AI 연구의 패러다임이 단순한 성능 극대화를 넘어 신뢰성 및 책임 확보로 이동하고 있음을 보여주는 강력한 신호가 되었다. 이들 연구는 AI 시스템을 고립된 기술적 산물이 아닌, 적대적 환경 또는 동적 사회 시스템과 상호작용하는 개체로 간주하는 관점의 전환을 이끌었다.
3.1 적대적 방어의 허상: ‘Obfuscated Gradients’ 분석 (ICML 2018 최우수 논문)
Anish Athalye, Nicholas Carlini, David Wagner의 연구는 당시 제안되던 다수의 적대적 예시(adversarial examples) 방어 모델들이 실제로는 견고하지 않으며, ’난독화된 그래디언트(Obfuscated Gradients)’라는 현상 때문에 강력해 보이는 착시 효과를 일으킨다는 것을 증명했다.7 이 연구는 “우리의 방어 모델은 강력하다“는 주장이 실제로는 평가의 허점 때문에 생긴 착각일 수 있음을 보이며, 의도한 보안 목표가 달성되지 않았음을 밝혔다.
핵심 개념인 ’난독화된 그래디언트’는 그래디언트 기반 공격 알고리즘이 손실 함수를 최대화하는 유용한 방향을 찾지 못하게 만드는 현상을 지칭한다. 이는 방어 모델의 진정한 견고성이 아니라 평가 방법의 한계 때문에 발생하는 문제다.9 본 연구는 이를 체계적으로 분석하여 세 가지 유형으로 분류했다.
-
Shattered Gradients (산산조각 난 그래디언트): 방어 모델이 미분 불가능한 연산을 포함하거나 수치적으로 불안정할 때 발생하며, 이로 인해 그래디언트가 존재하지 않거나 부정확해진다.
-
Stochastic Gradients (확률적 그래디언트): 방어 모델에 무작위성을 도입하여, 공격자가 계산하는 그래디언트가 매번 달라지게 만들어 최적화 과정을 방해한다.
-
Vanishing/Exploding Gradients (소실/폭발 그래디언트): 매우 깊거나 순환적인 연산 과정에서 그래디언트가 너무 작아지거나(소실) 너무 커져서(폭발) 공격에 사용할 수 없게 되는 경우다.
저자들은 ICLR 2018에 발표된 9개의 화이트박스 방어 모델을 분석하여, 그중 7개가 이러한 난독화된 그래디언트에 의존하고 있음을 밝혔다. 그리고 각 유형을 극복하기 위한 새로운 공격 기법(예: Backward Pass Differentiable Approximation)을 개발하여, 7개 중 6개를 완전히, 1개를 부분적으로 우회하는 데 성공했다.9 이 논문은 AI 보안 연구 분야에 엄격한 평가 기준의 필요성을 각인시켰다. 단순히 특정 공격을 막는 것을 넘어, 방어 메커니즘 자체의 취약점을 파고드는 ’적응적 공격자(adaptive adversary)’를 가정하고 평가하는 것이 필수적임을 역설하며, 관련 연구 방법론을 한 단계 성숙시키는 중요한 계기를 마련했다.
3.2 공정성의 장기적 영향: 시간 동역학 모델 분석 (ICML 2018 최우수 논문)
Lydia T. Liu 등의 연구는 기계 학습의 공정성 논의를 정적인 분류 문제에서 동적인 사회 시스템 문제로 확장했다. 이들은 기존의 공정성 기준들이 장기적으로는 보호하고자 하는 집단에 오히려 해를 끼칠 수 있다는 충격적인 가능성을 이론적으로 입증했다.7 이 연구는 “우리의 공정성 모델은 소수 집단을 보호한다“는 선한 의도가 실제로는 장기적 피해로 이어질 수 있음을 보이며, 의도한 사회적 목표가 달성되지 않을 수 있는 역설을 드러냈다.
연구의 핵심은 ’One-Step Feedback Model’이다. 이 모델은 대출 승인과 같은 결정이 개인의 상태(예: 신용 점수)에 영향을 미치고, 이것이 다음 시점의 인구 분포를 변화시키는 과정을 수학적으로 모델링한다.14 시간 t의 인구 분포 \pi_j(x)에 대해 선택 정책 \tau_j(x)가 적용되면, 결과에 따라 개인의 점수는 \Delta(x)만큼 변하며, 다음 시점의 평균 점수 변화 \Delta\mu_j를 측정한다.
이 모델을 통해 주요 공정성 기준들의 동적 효과를 분석한 결과는 다음과 같다.
-
Demographic Parity (인구 통계적 동등성): 두 집단에 동일한 비율로 대출을 승인하는 기준이다. 이 기준은 상환 능력이 부족한 개인에게도 대출을 강제할 수 있어, 장기적으로 해당 집단의 평균 신용 점수를 하락시키는 ’적극적 피해(active harm)’를 유발할 수 있다.14
-
Equality of Opportunity (기회 균등): 대출 상환 능력이 있는 개인들 사이에서 두 집단의 대출 승인율(진양성률)을 동일하게 맞추는 기준이다. 이 기준 역시 특정 조건 하에서는 집단에 해를 끼칠 수 있음이 밝혀졌다.
이 연구는 공정성을 단순한 수학적 제약 조건으로 취급하는 것의 위험성을 경고했다. 알고리즘 결정의 장기적, 동적, 시스템적 영향을 고려하는 새로운 접근법의 필요성을 제기하며, 이후 공정성 연구가 인과추론(causal inference) 및 사회과학적 모델링과 결합하는 중요한 지적 토대를 마련했다.
4. 생성 모델의 패러다임 전환: Flow 기반 모델의 부상
2018년 이전까지 생성 모델 분야는 VAE(Variational Autoencoder)와 GAN(Generative Adversarial Network)이 양분하고 있었다. VAE는 정확한 추론이 가능했지만 생성된 샘플의 품질이 낮았고, GAN은 높은 품질의 샘플을 생성했지만 학습이 불안정하고 모드 붕괴(mode collapse) 문제가 있었다. OpenAI의 Glow 모델 등장은 이 구도에 변화를 가져왔다. Glow는 ’정확한 가능도 최적화’라는 엄격한 수학적 프레임워크를 따르면서도 GAN에 필적하는 고품질 샘플을 생성할 수 있음을 보여주며, Flow 기반 모델이라는 제3의 강력한 패러다임을 제시했다. 이는 연구자들에게 “반드시 GAN을 사용해야만 사실적인 이미지를 얻을 수 있는 것은 아니다“라는 새로운 관점을 제시하며, 생성 모델 연구의 ‘삼국지’ 시대를 열었다.
4.1 OpenAI의 Glow: 가역적 1x1 컨볼루션을 통한 고품질 이미지 생성
Diederik P. Kingma와 Prafulla Dhariwal이 발표한 Glow는 정규화 흐름(Normalizing Flow)에 기반한 생성 모델로, 정확한 로그-가능도(log-likelihood) 계산이 가능하면서도 고품질의 이미지를 생성하고 효율적으로 샘플링할 수 있음을 보여주었다.17
Flow 기반 모델의 원리는 단순한 분포(예: 가우시안 분포)를 가진 잠재 변수 z를 일련의 가역적(invertible) 변환 f를 통해 복잡한 데이터 x의 분포로 매핑하는 것이다. 즉, x = f(z)이며, 가역성이 보장되므로 역변환 z = f^{-1}(x)도 가능하다.17 변수 변환 공식(Change of Variables Formula)을 통해 데이터의 정확한 로그 확률 밀도를 계산할 수 있다는 점이 핵심이다.
\log p_{\theta}(x) = \log p_{\theta}(z) + \log \left| \det\left(\frac{\partial f^{-1}(x)}{\partial x}\right) \right|
이러한 특성 덕분에 Flow 기반 모델은 VAE나 GAN에 비해 다음과 같은 장점을 가진다.18
-
정확한 잠재 변수 추론 및 로그-가능도 평가: VAE의 근사적 추론이나 GAN의 인코더 부재 문제 없이, 주어진 데이터 x에 해당하는 잠재 변수 z를 정확히 찾을 수 있다.
-
효율적인 추론 및 합성: 자기회귀 모델(Autoregressive models)과 달리 합성과 추론 과정이 병렬화 가능하여 하드웨어 가속에 유리하다.
-
유용한 잠재 공간: 학습된 잠재 공간에서 의미론적 속성 조작(semantic attribute manipulation)이 용이하다.
Glow의 핵심 아키텍처는 이전 연구인 RealNVP를 단순화하고 성능을 개선한 것으로, 각 스텝은 Actnorm, 가역적 1x1 컨볼루션, 아핀 커플링 레이어의 세 가지 요소로 구성된다.17 이 중 가장 핵심적인 혁신은
가역적 1x1 컨볼루션이다. 이는 기존의 고정된 채널 순열(permutation)을 학습 가능한 1x1 컨볼루션으로 대체한 것으로, 채널 간의 의존성을 효과적으로 학습하면서도 야코비안 행렬식(Jacobian determinant)을 효율적으로 계산할 수 있게 한다.18
Glow는 CelebA-HQ와 같은 고해상도 데이터셋에서 매우 사실적인 이미지를 생성했으며, 레이블 없이 학습된 잠재 공간에서 ‘미소’, ‘나이’, ’머리색’과 같은 속성을 벡터 연산을 통해 직관적으로 조작할 수 있음을 보여주었다.18 이는 생성 모델 연구에서 GAN의 지배력에 도전하고, 가능도 기반 모델의 잠재력을 재조명하는 중요한 성과였으며, 이후 VQ-VAE, Diffusion Model 등 새로운 가능도 기반 모델의 등장으로 이어지는 발판을 마련했다.
5. 복잡계에서의 협력과 경쟁: 다중 에이전트 강화학습의 진화
딥마인드가 발표한 ‘For The Win’ (FTW) 에이전트는 ’지능은 복잡한 환경과 사회적 상호작용 속에서 탄생한다’는 가설을 강력하게 뒷받침한다. 기존 강화학습이 주로 단일 에이전트를 고정된 환경에서 학습시킨 것과 달리, FTW의 인구 기반 학습(PBT) 접근법은 에이전트 자신들이 서로에게 끊임없이 변화하는 ’환경’이 되어주는 ‘공진화(co-evolution)’ 시스템을 구축했다. 수많은 에이전트들이 동시에 학습하며 서로에게 더 어려운 과제를 제시하는 ’자연스러운 커리큘럼(natural curriculum)’을 형성한 것이다. 이 과정에서 지능은 고정된 문제 풀이가 아니라, 끊임없이 변화하는 사회적/경쟁적 환경에 적응하고 협력하는 과정에서 창발(emerge)될 수 있음을 보여주었다.
5.1 딥마인드의 ‘For The Win’: 퀘이크 III 아레나에서의 초인간적 팀플레이
Max Jaderberg 등이 발표한 이 연구는 1인칭 3D 게임인 ‘퀘이크 III 아레나 캡처 더 플래그(CTF)’ 모드에서 AI 에이전트가 인간 플레이어와 협력하고 경쟁하며 인간 수준을 뛰어넘는 성능을 달성했음을 보였다.22 에이전트는 오직 픽셀 입력과 게임 점수만을 사용하여 처음부터 학습했으며, 중앙 통제 없이 분산된 다수의 에이전트가 희소한 팀 보상만으로 복잡한 환경에서 정교한 협력 전략을 학습할 수 있음을 보여준 기념비적인 성과이다.25
FTW 에이전트의 성공은 세 가지 핵심 기술의 결합으로 이루어졌다.26
-
인구 기반 학습 (Population-Based Training, PBT): 단일 에이전트가 아닌 30개의 에이전트 ’인구’를 병렬로 학습시킨다. 각 에이전트는 서로 팀원과 상대로 플레이하며 다양한 전략에 노출된다. PBT는 유전 알고리즘에서 영감을 받아, 성능이 좋은 에이전트의 가중치와 하이퍼파라미터를 성능이 낮은 에이전트가 ’착취(exploit)’하고, 이후 무작위로 변형하여 새로운 전략을 ’탐색(explore)’하는 과정을 반복한다.28
-
2계층 최적화를 통한 내적 보상 학습 (Internal Reward Learning via Two-Tier Optimization): CTF는 게임 종료 시 ’승/패’라는 매우 희소한 외적 보상(extrinsic reward)만을 제공한다. 이 문제를 해결하기 위해, 각 에이전트는 ’깃발 획득’과 같은 게임 내 이벤트(\rho_t)에 대한 자신만의 ‘내적 보상(internal reward)’ 함수 w(\rho_t)를 학습한다. PBT는 이 내적 보상 함수 자체를 ’승리’라는 최종 목표에 더 잘 부합하도록 진화시킨다. 이는 에이전트가 스스로 유용한 하위 목표를 설정하도록 유도하는 과정으로, 내부 최적화(J_{inner}, 강화학습)와 외부 최적화(J_{outer}, PBT)의 2계층 구조로 이루어진다.26
-
시간적 계층 표현 (Temporally Hierarchical Representation): 에이전트는 빠른 시간 스케일과 느린 시간 스케일에서 작동하는 두 개의 LSTM을 포함한 계층적 RNN 아키텍처를 사용한다. 이는 에이전트가 단기적인 반응과 장기적인 전략을 동시에 고려할 수 있게 하여 시간적으로 일관된 행동을 생성하는 데 도움을 준다.26
이러한 방법론을 통해 FTW 에이전트는 Elo 등급 시스템으로 평가했을 때 강력한 인간 플레이어들을 능가하는 성능을 보였으며 26, 명시적인 지시 없이도 ‘아군 따라다니기’, ’적 기지 캠핑’과 같은 인간과 유사한 협력 전략을 자발적으로 학습했다.23 특히 40명의 인간 플레이어와 함께 진행한 토너먼트에서, 인간들은 AI 팀원을 인간 팀원보다 ’더 협력적’이라고 평가하기도 했다.33 이 연구는 게임 AI를 넘어 자율 로봇 군집, 교통 시스템 최적화 등 다양한 실제 문제에 다중 에이전트 강화학습을 적용할 수 있는 가능성을 열었다.
6. 주요 기업 연구소의 기술 리더십과 생태계 기여
2018년 7월, 기업 AI 연구소들은 ’혁신적 연구(breakthrough research)’를 통한 기술 헤게모니 추구와 ’생태계 구축’을 통한 광범위한 영향력 확보라는 두 가지 축을 중심으로 경쟁 및 협력하는 양상을 보였다. 딥마인드와 OpenAI는 소수의 기념비적인 연구로 기술적 방향을 제시했고, FAIR와 마이크로소프트는 다수의 연구 발표와 함께 플랫폼 공개, 학계와의 긴밀한 협력을 통해 연구 생태계 자체를 자신들에게 유리한 방향으로 조성하려는 다각적인 전략을 펼쳤다.
6.1 딥마인드와 페이스북 AI 리서치(FAIR): 기초 연구와 학계 협력
딥마인드는 제4장에서 분석한 ‘For The Win’ 에이전트 발표를 통해 강화학습 분야의 리더십을 다시 한번 입증했다.22 이와 동시에, AI 기술을 현실 세계의 중요 문제에 적용하는 연구에서도 두각을 나타냈다. 대표적으로 구글 데이터 센터의 냉각 에너지 효율을 40% 개선하는 시스템을 개발했으며 35, 전자 건강 기록 데이터를 분석하여 생명을 위협하는 급성 신장 손상(AKI)을 기존 방식보다 최대 48시간 먼저 예측하는 AI 모델을 발표했다.36 이는 딥마인드가 기초 연구의 성과를 실질적인 사회적, 산업적 가치로 연결하려는 노력을 병행하고 있음을 보여준다.
**페이스북 AI 리서치 (FAIR)**는 ICML 2018에서 ‘Adversarially Regularized Autoencoders’, ‘Composable Planning with Attributes’ 등 다양한 주제의 논문을 다수 발표하며 폭넓은 연구 역량을 과시했다.37 더욱 주목할 점은 학계와의 협력을 대폭 강화하는 전략을 발표한 것이다. 7월, FAIR는 피츠버그, 시애틀, 런던에 새로운 연구소를 설립하고, 로봇 공학의 대가인 Jessica Hodgins, 자연어 처리 전문가 Luke Zettlemoyer 등 저명한 학자들을 영입했다. 이들은 대학 직위를 유지하며 FAIR와 공동 연구를 수행하는 ’이중 소속 모델(dual affiliation model)’을 통해 학계와 산업계의 가교 역할을 수행한다. 또한 FAIR는 이들 교수가 속한 대학 연구실에 수백만 달러의 연구 기금을 지원하고, 박사 과정 학생들을 위한 협력 연구 프로그램을 확대하는 등 개방형 연구와 학계와의 공생을 통해 AI 생태계를 주도하려는 명확한 비전을 제시했다.38
6.2 마이크로소프트와 OpenAI: 플랫폼 공개와 기술 선도
마이크로소프트 리서치는 7월, 텍스트 기반 게임을 통해 강화학습 에이전트를 훈련하고 평가할 수 있는 오픈소스 샌드박스 환경인 **‘TextWorld’**를 공개했다.39 TextWorld는 게임의 난이도, 어휘, 퀘스트 길이 등을 프로그래밍 방식으로 정밀하게 제어할 수 있어, 커리큘럼 학습이나 일반화 능력과 같은 특정 연구 주제를 체계적으로 탐구할 수 있는 이상적인 환경을 제공한다. 이는 언어 이해와 강화학습을 결합하는 연구 분야의 진입 장벽을 낮추고 연구를 촉진하는 중요한 생태계 기여로 평가된다. 이 외에도 마이크로소프트는 공정성 43, 정보 검색 44 등 다양한 AI 분야에서 꾸준한 연구 결과를 발표하며 기술 리더십을 유지했다.
OpenAI는 제3장에서 분석한 ‘Glow’ 모델과 관련 코드를 공개하며 18, 고품질 생성 모델 연구의 새로운 방향을 제시했다. OpenAI는 딥마인드와 마찬가지로, 소수의 기념비적이고 파급력 있는 연구를 통해 분야 전체의 아젠다를 설정하고 기술적 담론을 이끌어가는 강력한 영향력을 보여주었다.
7. 결론: 2018년 7월이 남긴 유산과 미래 전망
2018년 7월의 연구 동향을 종합하면, AI 기술이 가능성의 탐색을 넘어 현실 세계 적용을 위한 내실을 다지는 단계로 진입했음을 명확히 알 수 있다. ’Obfuscated Gradients’와 ‘Delayed Impact of Fair ML’ 연구는 AI 시스템의 신뢰성과 사회적 책임을 더 이상 부가적인 고려사항이 아닌 핵심 연구 주제로 격상시켰다. 이러한 성찰은 AI 시스템이 실제 사회 및 적대적 환경과 상호작용할 때 발생하는 의도치 않은 결과를 예측하고 완화하려는 노력으로 이어졌다.
Glow의 등장은 생성 모델 분야의 다각화를 촉진했으며, GAN 일변도의 흐름에서 벗어나 가능도 기반 모델의 잠재력을 재조명하는 계기가 되었다. FTW 에이전트의 성공은 복잡한 문제 해결을 위한 협력적 AI의 청사진을 제시했으며, 다중 에이전트 시스템이 중앙 통제 없이도 창발적인 전략을 학습할 수 있음을 증명했다. 또한, RSS에서 논의된 미분 가능한 물리 엔진과 같은 연구들은 시뮬레이션과 현실 세계의 간극을 메우려는 중요한 시도로, 로봇 지능의 발전에 기여했다.
이 시기의 기초 연구들은 이후 수년간 AI 기술 발전에 지대한 영향을 미쳤다. 신뢰성 연구는 AI 윤리 및 정렬(Alignment) 문제로 심화되었고, Flow 기반 모델은 이후 확산 모델(Diffusion Model)과 같은 더욱 강력한 생성 모델의 이론적 토대가 되었으며, 다중 에이전트 연구는 오늘날의 복잡한 자율 시스템 및 대규모 언어 모델 기반 에이전트 설계에 영감을 주었다. 결론적으로 2018년 7월은 AI가 더 똑똑해지는 것을 넘어, 더 신뢰할 수 있고, 더 창의적이며, 더 협력적인 지능으로 나아가는 중요한 이정표를 세운 시기로 기록될 것이다.
8. 참고 자료
- IJCAI-ECAI-18 – July 13-19 2018, Stockholm, Sweden, https://www.ijcai-18.org/
- Robotics: Science and Systems June 26-30, 2018 - RISLab, http://rislab.org/rss2018website/
- Bringing Learning to Robotics: Highlights from RSS 2018 - The Gradient, https://thegradient.pub/2018-rss-conference/
- Awards - IJCAI-ECAI-18, https://www.ijcai-18.org/awards/index.html
- IJCAI Awards, https://www.ijcai.org/awards
- IJCAI Award Winners, https://ijcai-22.org/award-winners/index.html
- ICML 2018 Awards, https://icml.cc/Conferences/2018/Awards
- Conferences - RSS Foundation, https://roboticsfoundation.org/conferences/
- Obfuscated Gradients Give a False Sense of Security … - arXiv, https://arxiv.org/pdf/1802.00420
- [1802.00420] Obfuscated Gradients Give a False Sense of Security: Circumventing Defenses to Adversarial Examples - arXiv, https://arxiv.org/abs/1802.00420
- Obfuscated gradients give a false sense of security: circumventing defenses to adversarial examples - Anish Athalye, https://anish.io/files/obfuscated:icml18-poster.pdf
- Delayed impact of fair machine learning - Princeton University, https://collaborate.princeton.edu/en/publications/delayed-impact-of-fair-machine-learning-2
- [1803.04383] Delayed Impact of Fair Machine Learning - arXiv, https://arxiv.org/abs/1803.04383
- Delayed Impact of Fair Machine Learning - Proceedings of Machine …, https://proceedings.mlr.press/v80/liu18c/liu18c.pdf
- Delayed Impact of Fair Machine Learning - IJCAI, https://www.ijcai.org/proceedings/2019/0862.pdf
- Delayed Impact of Fair Machine Learning - Berkeley AI Research, https://bair.berkeley.edu/blog/2018/05/17/delayed-impact/
- Glow: Generative Flow with Invertible 1x1 Convolutions, http://papers.neurips.cc/paper/8224-glow-generative-flow-with-invertible-1x1-convolutions.pdf
- Glow: Better reversible generative models | OpenAI, https://openai.com/index/glow/
- [1807.03039] Glow: Generative Flow with Invertible 1x1 Convolutions - arXiv, https://arxiv.org/abs/1807.03039
- [1807.03039] Glow: Generative Flow with Invertible 1×1 Convolutions - ar5iv - arXiv, https://ar5iv.labs.arxiv.org/html/1807.03039
- Glow: Generative Flow with Invertible 1×1 Convolutions - arXiv, https://arxiv.org/pdf/1807.03039
- Google DeepMind - Wikipedia, https://en.wikipedia.org/wiki/Google_DeepMind
- The Best of AI: New Articles Published This Month (July 2018) | by Arnault Chazareix | Sicara’s blog | Medium, https://medium.com/sicara/07-2018-best-ai-new-articles-this-month-de7d718290fa
- AI achieves “human-level performance” in Quake III Arena - GamesIndustry.biz, https://www.gamesindustry.biz/ai-achieves-human-level-performance-in-quake-iii-arena
- [1807.01281] Human-level performance in first-person multiplayer games with population-based deep reinforcement learning - arXiv, https://arxiv.org/abs/1807.01281
- Capture the Flag: the emergence of complex cooperative agents …, https://deepmind.google/discover/blog/capture-the-flag-the-emergence-of-complex-cooperative-agents/
- DeepMind’s Playing Capture The Flag with Deep Reinforcement Learning - Medium, https://medium.com/data-science/deepminds-playing-capture-the-flag-with-deep-reinforcement-learning-a9f71256442e
- Human-level performance in first-person multiplayer games with population-based deep reinforcement learning | David Silver, https://davidstarsilver.wordpress.com/wp-content/uploads/2025/04/human-level-performance-in-first-person-multiplayer-games-with-population-based-deep-reinforcement-learning.pdf
- Population based training of neural networks - Google DeepMind, https://deepmind.google/discover/blog/population-based-training-of-neural-networks/
- DeepMind AI Reaches Human-Level Performance in Quake III Arena - Synced Review, https://syncedreview.com/2019/06/06/deepmind-ai-reaches-human-level-performance-in-quake-iii-arena/
- For The Win: An AI Agent Achieves Human-Level Performance in a 3D Video Game, https://pub.towardsai.net/for-the-win-an-ai-agent-achieves-human-level-performance-in-a-3d-video-game-3971277ea3d4
- [R] Capture the Flag: the emergence of complex cooperative agents | DeepMind - Reddit, https://www.reddit.com/r/MachineLearning/comments/8vu823/r_capture_the_flag_the_emergence_of_complex/
- Google Teaches AI to Play Quake III Arena - 80 Level, https://80.lv/articles/google-teaches-ai-to-play-quake-iii-arena
- The interesting facts behind DeepMind’s Quake-playing AI - TechTalks, https://bdtechtalks.com/2019/06/03/deepmind-ai-quake-iii-arena-ctf/
- DeepMind AI Reduces Google Data Centre Cooling Bill by 40%, https://deepmind.google/discover/blog/deepmind-ai-reduces-google-data-centre-cooling-bill-by-40/
- Using AI to give doctors a 48-hour head start on life-threatening illness - Google DeepMind, https://deepmind.google/discover/blog/using-ai-to-give-doctors-a-48-hour-head-start-on-life-threatening-illness/
- Facebook Research at ICML 2018, https://research.facebook.com/blog/2018/7/facebook-research-at-icml-2018/
- Facebook AI Research expands with new academic collaborations, https://research.facebook.com/blog/2018/7/facebook-ai-research-expands-with-new-academic-collaborations/
- First TextWorld Problems—Microsoft Research Montreal’s latest AI competition is really cooking, https://www.microsoft.com/en-us/research/blog/first-textworld-problems-microsoft-research-montreals-latest-ai-competition-is-really-cooking/
- Microsoft’s new TextWorld framework generates games to train AI models - SiliconANGLE, https://siliconangle.com/2018/07/13/microsofts-new-textworld-framework-generates-games-train-ai-models/
- TextWorld: A Learning Environment for Text-based Games, https://arxiv.org/abs/1806.11532
- TextWorld: A Learning Environment for Text-based Games - Microsoft Research, https://www.microsoft.com/en-us/research/publication/textworld-a-learning-environment-for-text-based-games/
- Machine Learning for fair decisions - Microsoft Research, https://www.microsoft.com/en-us/research/blog/machine-learning-for-fair-decisions/
- Microsoft Research Blog - Web and AI Sciences, https://www.microsoft.com/en-us/research/group/web-ai-sciences/microsoft-research-blog/
- openai/glow: Code for reproducing results in “Glow: Generative Flow with Invertible 1x1 Convolutions” - GitHub, https://github.com/openai/glow